Ordinal

작성자

익명

작성일

2026.06.20

조회수

버전

Ordinal (순서형 데이터)

개요

Ordinal(순서형 데이터)은 데이터 과학과 통계학에서 사용되는 정성적 데이터(Categorical Data)의 한 유형입니다. 이는 범주 간의 명확한 순서나 등급(Ordering)이 존재하지만, 각 등급 간에 등간(Interval)이 일정하지 않거나 절대적인 수치적 차이가 정의되지 않는 데이터를 의미합니다.

일반적으로 범주형 데이터는 명목형(Nominal)과 순서형으로 나뉘는데, 명목형이 단순히 이름을 구분하는 데 그치는 반면, 순서형은 '좋음', '보통', '나쁨'과 같이 우열 관계가 있는 특성을 가집니다. 데이터 전처리 및 머신러닝 모델링에서 순서형 데이터를 올바르게 처리하는 것은 모델의 성능과 해석 가능성에 중요한 영향을 미칩니다.

주요 특징

순서형 데이터는 다음과 같은 고유한 특징을 지니고 있습니다.

서열성 (Ordering): 데이터 포인트들 사이에 명확한 크기 관계(>, <, =)가 성립합니다. 예를 들어, 교육 수준(초등학교 < 중학교 < 고등학교 < 대학교)이나 고객 만족도 조사(매우 불만족 < 불만족 < 보통 < 만족 < 매우 만족)가 이에 해당합니다.
비등간성 (Non-Equal Intervals): 순서가 있다고 해서 단계 간의 간격이 동일하다고 볼 수 없습니다. '매우 만족'과 '만족' 사이의 심리적 거리와 '보통'과 '불만족' 사이의 심리적 거리가 동일하다고 단정할 수 없으며, 이는 주관적인 해석에 따라 달라질 수 있습니다.
비연속성 (Discreteness): 연속형 데이터(Continuous Data)와 달리 중간값이 존재하지 않거나 정의되지 않는 경우가 많습니다.

명목형(Nominal) 데이터와의 차이점

순서형 데이터를 이해하기 위해서는 명목형 데이터와의 비교가 필수적입니다.

특징	명목형 (Nominal)	순서형 (Ordinal)
정의	단순한 이름이나 라벨	순서나 등급이 있는 범주
서열 관계	없음 (A=B, A≠B만 가능)	있음 (A>B, B>C 등 가능)
수학적 연산	평균, 중앙값 계산 불가	중앙값, 사분위수 계산 가능
예시	성별, 혈액형, 색상	계급, 만족도, 교육 수준

데이터 처리 및 인코딩 기법

머신러닝 알고리즘은 일반적으로 숫자 형식의 입력을 요구하므로, 순서형 데이터를 수치화하는 과정이 필요합니다. 이때 순서 정보를 보존하면서 왜곡을 최소화하는 인코딩 기법을 선택해야 합니다.

1. 레이블 인코딩 (Label Encoding)

가장 간단한 방법으로, 범주에 정수 값을 할당합니다. * 예: [매우 불만족, 불만족, 보통, 만족, 매우 만족] → [0, 1, 2, 3, 4] * 주의점: 알고리즘이 이 정수 값을 연속적인 수치로 해석하여 '4'가 '0'보다 4배 크다고 오해할 수 있습니다. 따라서 선형 회귀와 같은 선형 모델에서는 주의가 필요하며, 트리 기반 모델(Random Forest, XGBoost 등)에서는 비교적 잘 작동합니다.

2. 순서형 인코딩 (Ordinal Encoding)

[scikit-learn](/doc/%EA%B8%B0%EC%88%A0/%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D/%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC/scikit-learn) 등의 라이브러리에서 제공하는 [OrdinalEncoder](/doc/%EA%B8%B0%EC%88%A0/%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D/%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC/OrdinalEncoder)를 사용하여 명시적으로 순서 관계를 정의할 수 있습니다. 이는 레이블 인코딩과 유사하지만, 데이터의 순서 정보를 명시적으로 전달한다는 점에서 의의가 있습니다.

3. 원-핫 인코딩 (One-Hot Encoding)의 한계

일반적으로 범주형 데이터에 널리 쓰이는 원-핫 인코딩은 순서형 데이터에는 적합하지 않을 수 있습니다. 원-핫 인코딩은 범주 간의 순서 정보를 완전히 무시하고 독립적인 벡터로 처리하기 때문에, 데이터가 가진 내재된 구조(Inherent Structure)를 잃게 만듭니다.

활용 사례

순서형 데이터는 다양한 분야에서 빈번하게 등장합니다.

리뷰 및 평점 시스템: 별점(1~5점), 리뷰 텍스트의 감정 점수
사회과학 조사: 리커트 척도(Likert Scale)를 이용한 설문 조사
의료 진단: 질병의 중증도 단계(경증, 중등증, 중증)
교육 평가: 학점(A, B, C, D, F) 또는 등급(1등급, 2등급...)

통계적 분석 방법

순서형 데이터는 평균(Mean)을 계산하기 어렵지만, 중앙값(Median)과 사분위수(Quartiles)와 같은 위치 측정치는 유효하게 사용할 수 있습니다. 또한, 비모수 통계 검정 방법인 만-휘트니 U 검정(두 집단 비교)이나 크루스칼-왈리스 검정(세 집단 이상 비교) 등을 적용하여 유의미한 차이를 분석할 수 있습니다.

결론

Ordinal 데이터는 현실 세계의 많은 정성적 정보를 수치적으로 표현할 때 필수적인 개념입니다. 데이터 과학자나 분석가는 순서형 데이터가 가진 '서열'의 특성을 이해하고, 적절한 인코딩 기법을 선택하여 모델에 입력해야 합니다. 특히 트리 기반 모델과 선형 모델 간에 순서형 데이터 처리 방식이 미치는 영향이 다르므로, 문제의 성격과 사용하는 알고리즘에 따라 최적의 전처리 전략을 수립하는 것이 중요합니다.

관련 문서

[Nominal Data (명목형 데이터)]
[Data Preprocessing (데이터 전처리)]
[Categorical Encoding (범주형 인코딩)]
[Likert Scale (리커트 척도)]

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# Ordinal (순서형 데이터)

## 개요

**Ordinal**(순서형 데이터)은 데이터 과학과 통계학에서 사용되는 정성적 데이터(Categorical Data)의 한 유형입니다. 이는 범주 간의 **명확한 순서나 등급(Ordering)**이 존재하지만, 각 등급 간에 **등간(Interval)이 일정하지 않거나 절대적인 수치적 차이가 정의되지 않는** 데이터를 의미합니다.

일반적으로 범주형 데이터는 명목형(Nominal)과 순서형으로 나뉘는데, 명목형이 단순히 이름을 구분하는 데 그치는 반면, 순서형은 '좋음', '보통', '나쁨'과 같이 우열 관계가 있는 특성을 가집니다. 데이터 전처리 및 머신러닝 모델링에서 순서형 데이터를 올바르게 처리하는 것은 모델의 성능과 해석 가능성에 중요한 영향을 미칩니다.

## 주요 특징

순서형 데이터는 다음과 같은 고유한 특징을 지니고 있습니다.

1. **서열성 (Ordering)**: 데이터 포인트들 사이에 명확한 크기 관계(>, <, =)가 성립합니다. 예를 들어, 교육 수준(초등학교 < 중학교 < 고등학교 < 대학교)이나 고객 만족도 조사(매우 불만족 < 불만족 < 보통 < 만족 < 매우 만족)가 이에 해당합니다.
2. **비등간성 (Non-Equal Intervals)**: 순서가 있다고 해서 단계 간의 간격이 동일하다고 볼 수 없습니다. '매우 만족'과 '만족' 사이의 심리적 거리와 '보통'과 '불만족' 사이의 심리적 거리가 동일하다고 단정할 수 없으며, 이는 주관적인 해석에 따라 달라질 수 있습니다.
3. **비연속성 (Discreteness)**: 연속형 데이터(Continuous Data)와 달리 중간값이 존재하지 않거나 정의되지 않는 경우가 많습니다.

## 명목형(Nominal) 데이터와의 차이점

순서형 데이터를 이해하기 위해서는 명목형 데이터와의 비교가 필수적입니다.

| 특징 | 명목형 (Nominal) | 순서형 (Ordinal) |
| :--- | :--- | :--- |
| **정의** | 단순한 이름이나 라벨 | 순서나 등급이 있는 범주 |
| **서열 관계** | 없음 (A=B, A≠B만 가능) | 있음 (A>B, B>C 등 가능) |
| **수학적 연산** | 평균, 중앙값 계산 불가 | 중앙값, 사분위수 계산 가능 |
| **예시** | 성별, 혈액형, 색상 | 계급, 만족도, 교육 수준 |

## 데이터 처리 및 인코딩 기법

머신러닝 알고리즘은 일반적으로 숫자 형식의 입력을 요구하므로, 순서형 데이터를 수치화하는 과정이 필요합니다. 이때 순서 정보를 보존하면서 왜곡을 최소화하는 인코딩 기법을 선택해야 합니다.

### 1. 레이블 인코딩 (Label Encoding)
가장 간단한 방법으로, 범주에 정수 값을 할당합니다.
*   예: [매우 불만족, 불만족, 보통, 만족, 매우 만족] → [0, 1, 2, 3, 4]
*   **주의점**: 알고리즘이 이 정수 값을 연속적인 수치로 해석하여 '4'가 '0'보다 4배 크다고 오해할 수 있습니다. 따라서 선형 회귀와 같은 선형 모델에서는 주의가 필요하며, 트리 기반 모델(Random Forest, XGBoost 등)에서는 비교적 잘 작동합니다.

### 2. 순서형 인코딩 (Ordinal Encoding)
`scikit-learn` 등의 라이브러리에서 제공하는 `OrdinalEncoder`를 사용하여 명시적으로 순서 관계를 정의할 수 있습니다. 이는 레이블 인코딩과 유사하지만, 데이터의 순서 정보를 명시적으로 전달한다는 점에서 의의가 있습니다.

### 3. 원-핫 인코딩 (One-Hot Encoding)의 한계
일반적으로 범주형 데이터에 널리 쓰이는 원-핫 인코딩은 순서형 데이터에는 적합하지 않을 수 있습니다. 원-핫 인코딩은 범주 간의 순서 정보를 완전히 무시하고 독립적인 벡터로 처리하기 때문에, 데이터가 가진 내재된 구조(Inherent Structure)를 잃게 만듭니다.

## 활용 사례

순서형 데이터는 다양한 분야에서 빈번하게 등장합니다.

*   **리뷰 및 평점 시스템**: 별점(1~5점), 리뷰 텍스트의 감정 점수
*   **사회과학 조사**: 리커트 척도(Likert Scale)를 이용한 설문 조사
*   **의료 진단**: 질병의 중증도 단계(경증, 중등증, 중증)
*   **교육 평가**: 학점(A, B, C, D, F) 또는 등급(1등급, 2등급...)

## 통계적 분석 방법

순서형 데이터는 평균(Mean)을 계산하기 어렵지만, 중앙값(Median)과 사분위수(Quartiles)와 같은 위치 측정치는 유효하게 사용할 수 있습니다. 또한, 비모수 통계 검정 방법인 **만-휘트니 U 검정**(두 집단 비교)이나 **크루스칼-왈리스 검정**(세 집단 이상 비교) 등을 적용하여 유의미한 차이를 분석할 수 있습니다.

## 결론

Ordinal 데이터는 현실 세계의 많은 정성적 정보를 수치적으로 표현할 때 필수적인 개념입니다. 데이터 과학자나 분석가는 순서형 데이터가 가진 '서열'의 특성을 이해하고, 적절한 인코딩 기법을 선택하여 모델에 입력해야 합니다. 특히 트리 기반 모델과 선형 모델 간에 순서형 데이터 처리 방식이 미치는 영향이 다르므로, 문제의 성격과 사용하는 알고리즘에 따라 최적의 전처리 전략을 수립하는 것이 중요합니다.

## 관련 문서
*   [Nominal Data (명목형 데이터)]
*   [Data Preprocessing (데이터 전처리)]
*   [Categorical Encoding (범주형 인코딩)]
*   [Likert Scale (리커트 척도)]

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen/qwen3.6-35b-a3b)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나